اثربخشی بسط پرس‌وجو مبتنی بر خوشه‌بندی اسناد شبه‌بازخورد با الگوریتم K-NN

نویسندگان

  • رضا خدایی دانشگاه تبریز - دانشکده مهندسی برق و کامپیوتر
چکیده مقاله:

بسط پرس‌وجو یکی از روش‌های مؤثر در بهبود اثربخشی نتایج بازیابی اطلاعات است. روش بازخورد شبه‌مرتبط (PRF) فرض می‌کند که اسناد رتبه‌بالا از نتایج اولیه بازیابی‌شده مرتبط به پرس‌وجو است و تعدادی کلمه مرتبط را از اسناد رتبه‌بالا برای بسط انتخاب می‌کند. وجود اسناد نامرتبط در بین اسناد رتبه بالا محققان را به ارائه روش‌هایی برای انتخاب بهترین اسناد به‌عنوان منبع برای انتخاب کلمه بسط سوق می‌دهد که انتخاب بهترین اسناد برای استخراج کلمات مرتبط برای بسط، موضوع مهمی در روش‌های بسط پرس‌وجو هست. در این مقاله، از خوشه‌بندی اسناد شبه‌بازخورد (CPRF) حاصل از نتایج اولیه، بر اساس شباهت مبتنی بر کلمه برای قرار دادن شبیه‌ترین اسناد کنار هم استفاده می‌شود. تعدادی از خوشه‌ها طبق محتوایشان به‌عنوان خوشه‌های بازخورد انتخاب می‌شوند و از خوشه‌های بازخورد، اسناد رتبه‌بالا به‌عنوان اسناد بازخورد انتخاب می‌شوند. سپس، یک سند ترکیبی از روی اسناد انتخابی تشکیل می‌شود و کلمات سند ترکیبی بر اساس تابع رتبه‌بندی TF-IDF مرتب می‌شوند. بعد، کلمات رتبه بالا برای بسط انتخاب می‌شوند. آزمایش‌های انجام‌گرفته روی مجموعه داده پزشکی MED نشان می‌دهد روش پیشنهادی معیار متوسط میانگین دقت (MAP) بالاتری نسبت به روش بازخورد شبه‌مرتبط (PRF) دارد.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

اثربخشی بسط پرس وجو مبتنی بر خوشه بندی اسناد شبه بازخورد با الگوریتم k-nn

بسط پرس وجو یکی از روش های مؤثر در بهبود اثربخشی نتایج بازیابی اطلاعات است. روش بازخورد شبه مرتبط (prf) فرض می کند که اسناد رتبه بالا از نتایج اولیه بازیابی شده مرتبط به پرس وجو است و تعدادی کلمه مرتبط را از اسناد رتبه بالا برای بسط انتخاب می کند. وجود اسناد نامرتبط در بین اسناد رتبه بالا محققان را به ارائه روش هایی برای انتخاب بهترین اسناد به عنوان منبع برای انتخاب کلمه بسط سوق می دهد که انتخا...

متن کامل

اثر تغییر اقلیم بر فراوانی سیلاب حوضه کلاردشت با استفاده از تلفیق الگوریتم K-nn و مدل HadCM3

تغییر اقلیم می­تواند منجر به تأثیرات جدی بر فراوانی، مقدار و مدت متغیرهای حدی هیدرولوژیکی شود. حدهای نهایی هیدرولوژیکی تغییریافته، می­تواند بر طراحی سازه­های هیدرولیک در آینده، توسعه دشت­های سیلابی و مدیریت منابع آب اثرگذار باشد. این پژوهش به بررسی تأثیرات تغییر اقلیم با استفاده از تلفیق روش تولید بارش K-nn و مدل HacCM3 از سری مدل­های گردش عمومی جو سناریوی A2 و همچنین مدل هیدرولوژیکی HEC-HMS می...

متن کامل

Fast k-NN search

Random projection trees have proven to be effective for approximate nearest neighbor searches in high dimensional spaces where conventional methods are not applicable due to excessive usage of memory and computational time. We show that building multiple trees on the same data can improve the performance even further, without significantly increasing the total computational cost of queries when...

متن کامل

اثر تغییر اقلیم بر فراوانی سیلاب حوضه کلاردشت با استفاده از تلفیق الگوریتم k-nn و مدل hadcm۳

تغییر اقلیم می­تواند منجر به تأثیرات جدی بر فراوانی، مقدار و مدت متغیرهای حدی هیدرولوژیکی شود. حدهای نهایی هیدرولوژیکی تغییریافته، می­تواند بر طراحی سازه­های هیدرولیک در آینده، توسعه دشت­های سیلابی و مدیریت منابع آب اثرگذار باشد. این پژوهش به بررسی تأثیرات تغییر اقلیم با استفاده از تلفیق روش تولید بارش k-nn و مدل haccm3 از سری مدل­های گردش عمومی جو سناریوی a2 و همچنین مدل هیدرولوژیکی hec-hms می...

متن کامل

Scalable $k$-NN graph construction

The k-NN graph has played a central role in increasingly popular data-driven techniques for various learning and vision tasks; yet, finding an efficient and effective way to construct k-NN graphs remains a challenge, especially for large-scale high-dimensional data. In this paper, we propose a new approach to construct approximate k-NN graphs with emphasis in: efficiency and accuracy. We hierar...

متن کامل

Secure K-NN Algorithm for Distributed Databases

In this paper we present an algorithm for determining k-nearest neighbor tuples for a given tuple in a set of geographically distributed databases. These databases form a vertical partitioning of some implicit global database. The computation is performed by exchanging minimum number of higher level summaries so that even if they are captured by an intruder to actual data tuples can ever be rev...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 46  شماره 1

صفحات  143- 151

تاریخ انتشار 2016-04-20

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023